通过评测任务对问答效果进行测评_智能开放搜索 OpenSearch(Open Search)-阿里云帮助中心

备案控制台

输入文档关键字查找

通过评测任务对问答效果进行测评，从用户提出问题开始，到系统召回内容，再到LLM生成回答的整个流程进行综合评测。

注意事项

效果评测按实际评测时产生的计算资源消耗计费。

操作步骤

登录OpenSearch控制台。
选择目标地域，切换到OpenSearch-LLM智能问答版。
在实例列表单击目标实例右侧的管理，在左侧导航栏选择效果对比。

在评测任务页签下，单击创建评测任务进入创建评测任务页面，输入任务名称，选择评测数据集，问答参数配置参见下表。

参数	说明
模型选择	对话搜索时使用的模型，选择范围为模型列表中所有可用的模型。说明可用模型是指可进行问答测试的模型。
Prompt	对话搜索时使用的Prompt，需要提前配置Prompt模板，详情请参见Prompt管理。

Prompt参数说明
参数	类型	必需	取值范围	默认值	描述
attitude	String	否	-	normal	对话内容的语气，默认为normal normal：无 polite：使用和蔼和礼貌的语气 patience：使用委婉和耐心的语气
rule	String	否	-	simple	对话内容的详细程度，默认为detailed detailed：详细和专业 stepbystep：详细且按步骤
noanswer	String	否	-	sorry	无法回答问题时的回复，默认为sorry sorry：抱歉，根据已知信息无法回答该问题 uncertain：我不知道
language	String	否	-	Chinese	回答问题使用的语言，默认为Chinese Chinese：中文 English：英语 Thai：泰语 Korean：韩语
role	Boolean	否	-	true	开启后，将定制回答的角色。
role_name	String	否	-	AI小助手	定制回答的角色，例如：AI小助手
out_format	String	否	-	text	输出内容的形式，默认为text text：文本 table：表格 list：列项 markdown：markdown

文档召回参数说明
参数	类型	必需	取值范围	默认值	描述
filter	String	否	-	-	召回文档时根据目标字段进行过滤。例：filter = field = value
top_n	INT	否	(0, 50]	5	召回的文档数。
sf	Float	否	[0,+∞）	1.3	文档召回的阈值，sf越大则召回文档的向量相似度越小。
dense_weight	Float		(0,1)	0.7	选择稀疏向量模型时可选，表示稠密向量的权重，稀疏向量的权重则为：1-dense_weight。
formula	String	否	-	向量相似度	文档召回的排序公式。
operator	String	否	-	AND	文本召回时，文本token之间的关系。

参考图片参数说明
参数	类型	必需	取值范围	默认值	描述
sf	Float	否	[0,+∞)	1	参考图片的阈值，对于稀疏向量模型sf越大则参考图片与内容的向量相似度越大，对于稠密向量模型sf越大则参考图片与内容的向量相似度越小。
dense_weight	Float	否	(0,1)	0.7	选择稀疏向量模型时可选，表示稠密向量的权重，稀疏向量的权重则为：1-dense_weight。

Query理解参数说明
参数	类型	必需	取值范围	默认值	描述
query_extend	Boolean	否	-	false	开启后会扩展Query，提升召回质量
query_exten_num	INT	否	(0,+∞)	5	扩展Query的数量

人工干预参数说明
参数	类型	必需	取值范围	默认值	描述
sf	Float	否	[0,2]	0.3	人工干预问题的阈值，默认为0.3，sf越大则越容易匹配到人工干预词条

其它参数说明
参数	类型	必需	取值范围	默认值	描述
return_hits	Boolean	否	-	false	是否在结果中返回文档召回的结果
csi_level	String	否	-	strict	绿网配置 none: 表示不需要经过绿网处理 loose: 内容需要经过绿网处理，且只有绿网判断确定存在敏感内容，就会被拦截，返回无结果 strict: 内容需要经过绿网处理，且一旦绿网判断确定或者疑似存在敏感内容，就会被拦截，返回无结果
history_max	INT	否	(0，20]	20	多轮对话历史最大轮数，最大20轮
link	Boolean	否	-	false	是否在结果中返回文档召回的具体来源

完成上述参数配置后单击确定创建评测任务，测评完成系统给出综合得分。
单击测试报告查看每条问答的评测结果。如评测结果不准确，单击人工评估，对结果进行人工订正。

相关文档

上一篇：评测数据集管理下一篇：效果对比

文档内容是否对您有帮助？